
pr^'T WELTORGANISATION FDR GEISTIGES EIGENTUM 

Internationales Biiro 

INTERNATIONALE ANMELDUNG VEROFFENTLICHT NACH DEM VERTRAG tJBER DIE 
INTERNATIONALE ZUSAMMENARBEIT AUF DEM GEBIET DBS PATENTWESENS (PCT) 



(51) Internationale Patentklassifikation ^ 
G06K 17/60 



A2 



(11) Internationale Veroffentlichungsnummer: WO 00A7811 

(43) Internationales 

VerofTentlichungsdatum: 30. Marz 2000 (30.03.00) 



(21) Internationales Aktenzeichen: PCT/DE99/02846 

(22) Internationales Anmel(leclatum:8. September 1999 (08.09.99) 

(30) Prioritatsdaten: 

198 43 6203 23. September 1998 (23.09.98) DE 

(71) Anmelder (fiiralie Bestimmungsstaaten ausser US): SIEMENS 

AKTIENGESELLSCHAFT [DE/DE]; Wittelsbacherplatz 2, 
D-80333 Miinchen (DE). 

(72) Erfinder; und 

(75) Erfinder/Anmelder (nur Jur US): NEUNEIER, Ralf [DE/DEl; 
Gravelottestr. 3, D-81667 Miinchen (DE). MIHATSCH, 
Oliver [DE/DE]; Schulstr. 31, D-80634 MOnchen (DE). 

(74) Gemeinsamer Vertreter: SIEMENS AKTIENGE- 

SELLSCHAFT; Postfach 22 16 34, D-80506 Munchen 
(DE). 



(81) Bestimmungsstaaten: JP, US, europaisches Patent (AT, BE, 
CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, 
NL, FT, SE). 

Veroffentlicht 

Ohne internationalen Recherchenbericht und erneut zu 
verdjfentlichen nach Erhalt des Berichts. 



(54) Title: METHOD AND CONFIGURATION FOR DETERMINING A SEQUENCE OF ACTIONS FOR A SYSTEM WHICH 
COMPRISES STATUSES, WHEREBY A STATUS TRANSITION ENSUES BETWEEN TWO STATUSES AS A RESULT 
OF AN ACTION 



(54) Bezeichnung: VERFAHREN UND ANORDNUNG ZUR ERMITTLUNG EINER FOLGE VON AKTIONEN FUR EIN SYSTEM, 
WELCHES ZUSTANDE AUFWEIST, WOBEI EIN ZUSTANDSUBERGANG ZWISCHEN ZAVEI ZUSTANDEN 
AUFGRUND EINER AKTION ERFOLGT 



(57) Abstract 



The determination of a sequence of actions ensues in such a way that a sequence of statuses resulting from the sequence of actions 
is optimized with regard to a predetermined optimization function. The optimization function includes a variable parameter with which a 
risk can be set. Said risk comprises the resulting sequence of statuses with regard to a predetermined status of the system. 

(57) Zusammenfassung 

Die Ermittlung der Folge von Aktionen erfolgt derart, daB eine aus der Folge von Aktionen resultierende Folge von Zustanden 
hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist. Die Optimierungsfunktion enthalt einen variablen Parameter, mit dem 
ein Risiko einstellbar ist. welches Risiko die resultierende Folge von Zustanden hinsichtlich eines vorgegebenen Zustandes des Systems 
aufweist. 



LEDIGLICH ZUR INFORMATION 



Codes zur Identifizierung von PCT-Vertragsstaaten auf den Kopfbogen der Schriften, die Internationale Anmeidungen gemass dem 
PCT veroffentlichen. 



AL 


Albanien 


ES 


Spanien 


LS 


Lesotho 


SI 


Slowenien 


AM 


Armenien 


FI 


Finnland 


LT 


Litauen 


SK 


Slowakei 


AT 


Osterreich 


FR 


Frankreich 


LU 


Luxemburg 


SN 


Senegal 


AU 


Austral ien 


GA 


Gabun 


LV 


Lettland 


SZ 


Swasiland 


AZ 


Aserbaidschan 


GB 


Vereinigtes K6nigreich 


MC 


Monaco 


TD 


Tschad 


BA 


Bosnien-Herzcgowina 


GE 


Georgien 


MD 


Republik Moldau 


TG 


Togo 


BB 


Barbados 


GH 


Ghana 


MG 


Madagaskar 


TJ 


Tadschikistan 


BE 


Belgien 


GN 


Guinea 


MK 


Die ehemalige jugoslawische 


TM 


Turkmenistan 


BF 


Burkina Faso 


GR 


Griechenland 




Republik Mazedonien 


TR 


Tuikei 


BG 


Bulgarien 


HU 


Ungam 


ML 


Mali 


TT 


Trinidad und Tobago 


BJ 


Benin 


IE 


Irland 


MN 


Mongolei 


UA 


Ukraine 


BR 


Bras i lien 


IL 


Israel 


MR 


Mauretanien 


UG 


Uganda 


BY 


Belarus 


IS 


Island 


MW 


Malawi 


US 


Vereinigte Staaten von 


CA 


Kanada 


IT 


Italien 


MX 


Mexiko 




Amerika 


CF 


Zentralafrikanische Republik 


JP 


Japan 


NE 


Niger 


uz 


Usbekistan 


CG 


Kongo 


KE 


Kenia 


NL 


Niederlande 


VN 


Vietnam 


CH 


Schwciz 


KG 


Kirgisistan 


NO 


Norwegen 


YU 


Jugoslawlen 


CI 


C6te d'lvoire 


KP 


Demokratische Volksrepublik 


NZ 


Neuseeland 


ZW 


Zimbabwe 


CM 


Kamerun 




Korea 


PL 


Polen 






CN 


China 


KR 


Republik Korea 


FT 


Portugal 






CU 


Kuba 


KZ 


Kasachstan 


RO 


Rumanian 






CZ 


Tschechische Republik 


LC 


St. Lucia 


RU 


Russische Federation 






DE 


Deutschland 


LI- 


Liechtenstein 


SD 


Sudan 






DK 


DSncmark 


LK 


Sri Lanka 


SE 


Schweden 






EE 


Estland 


LR 


Liberia 


SG 


Singapur 







wo 00/17811 



PCT/DE99/02846 



1 

Beschreibung 

Verf ahreh und Anordnung zur £2nait:t:lung exner Folge von Aktio- 
nen fiir e±n System, welches Zus-tande aufweist, wobei e±n Zu- 
5 s-tandsubergang zwischen zwe± Zust:anden aufgrund exner Aktion 
erfolg'b 

Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur 
Ermittlung einer Folge von Aktionen fiir ein System, welches 
10 Zustande aufweist, wobei ein Zustandsubergang zwischen zwei 
Zustanden aufgrund einer Aktion erfolgt. 

Ein solches Verfahren und eine solche Anordnung sind aus [1] 
bekannt . 

15 

In [1] ist als Beispiel fiir ein solches System, welches Zu- 
stande aufweist, ein Finanzmarkt beschrieben. 

Das System wird als ein Markov-Entscheidungsproblem beschrie- 
20 ben (Markov-Decision-Problem, MDP) . Ein System, welches als 
Markov-Entscheidungsproblem beschrieben werden kann, ist. in 
seiner Struktur in Fig .2 dargestellt. 

Zu einem Zeitpunkt t befindet sich das System 201 in einem 
25 Zustand Xf Der Zustand ist fiir einen Beobachter des Sy- 
stems beobachtbar. Aufgrund einer Aktion a^ aus einer Menge 
in dem Zustand x^ moglicher Aktionen, at e A(xt) geht das 
System mit einer gewissen Wahrscheinlichkeit in einen Folge- 
zustand x^+i zu einem Folgezeitpunkt t-fl uber. 

30 

Dies ist durch eine Schleife in Fig, 2 symbolisch dargestellt. 
Ein Beobachter 200 nimmt beobachtbare Groften uber den Zustand 
x^ wahr 202 und trifft eine Entscheidung uber eine Aktion 
203, mit der er auf das System 201 einwirkt. Das System 201 
35 unterliegt ublicherweise einer Storung 205. 

Ferner erhalt-.der Beobachter 200 einen Gewinn rt 204 
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rt = r(xt, at, xt + i) e9l , (D 

der von der Aktion 203 und dem ursprunglichen Zustand xt 
zu dem Zeitpunkt t sowie dem Folgezustand xt+i des Systems zu 
dem Folgezeitpunkt t+1 abhangt. 



Der Gewinn kann einen positiven oder negativen skalaren 
Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- 
sichtlich eines vorgebbaren Kriteriums positiven oder negati- 
ven -Systementwicklung fuhrt, in [1] zu einer Kapitalvermeh- 
rung oder zu einem Verlust. 

In einem weiteren Zeitschritt entscheidet sich der Beobachter 
200 des Systems 201 aufgrund der beobachtbaren GroJien 202, 
204 des Folgezustandes xt+i fur eine neue Aktion at+i usw, 

Eine Folge von 



Zustand: 
Aktion : 

Folgezustand: 
Gewinn 





e 


X 


at 


e 


A(xt) 


xt + 1 


e 


X 


[xt, at, xt+i) 


€ 


9? 



usw. beschreibt eine Trajektorie des Systems, die durch ein 
Performanzkriterium, das die einzelnen Gewinne rt uber die 
Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- 
Entscheidungsproblem wird vereinf achend angenommen, dafi der 
Zustand xt und die Aktion at alle Inf ormationen enthalten, um 
eine Obergangswahrscheinlichkeit p(xt + i|-) des Systems von dem 
Zustand xt zu dem Folgezustand xt+i zu beschreiben. 

Formal bedeutet dies : 



p(xt + llxt.K ,xo, at,K , ao) = p(xt + i|xt, at) . 



(2) 
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3 

Mit p(xt + i|xt:/ at ) wird eine Obergangswahrscheinlichkeit fur 

den Folgezustand x^+i bei gegebenem Zustand und gegebener 
Aktion at bezeichnet. 



5 Bei einem Markov-Entscheidungsproblem hangen also zukiinftige 
Zustande des Systems 201 nicht von Zustanden und Aktionen ab, 
die welter als einen Zeitschritt in der Vergangenheit liegen. 

Zusammenf assend sind im weiteren die Charakteristika eines 
10 Markov-Entscheidungsproblems dargestellt : 



X Menge der moglichen Zustande des Systems, 

z.B. X = 9?"^, 

A(xt) Menge der moglichen Aktionen in dem Zu- 

stand 
p(^t + lNt/ ^t) ^t 

r(xt/ atf xt-f-i) Gewinn mit Erwartungswert R(xt/ at) - 



Das Ziel ist es, ausgehend von beobachtbaren Groflen, den im 
weiteren als Trainingsdaten bezeichneten Grofien, eine Strate- 
15 gie zu ermitteln, d.h. eine Folge von Funktionen 

^ = {l^O^ l^l/K , kit} / (3) 



welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- 
20 vorschrift, d.h, Aktion 

^t(xt) = at (4) 



abbilden. 

25 

Eine solche Strategie wird durch eine Optimierungsf unktion 
bewertet . 
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Die Optimierungsfunktion gibt den Erwartungswert , der uber 
die Zeit akkumulierten Gewinne bei einer gegebenen Strategie 
71 und eihem Startzustand xq an. 

Als ein Beispiel eines Verfahrens des approximativen dynami- 
schen Programmierens ist in [1] das sogenannte Q- 
Lernverfahren beschrieben. 

Eine optimale Bewertungsf unktion V*{x) ist definiert durch 
V*(x) = max v'^(x) Vx € X (5) 



mit 



00 



V^(x) = E EY^^K.Mt.xt + i)|xo = X 
.t = 0 



(6) 



wobei mit y ein vorgebbarer Verringerungsf aktor bezeichnet 
wird, der gemafi folgender Vorschrift gebildet wird: 



Y = 



1 + z 



(7) 



z e 



(8) 



Im Rahmen des Q-Lernverf ahrens wird far jedes Paar 
(Zustand xt, Aktion at) eine Q-Bewertungsf unktion Q*(xt, at) 
gemali folgender Vorschrift gebildet: 

Q*(xt, at) = pK + l|xt, at) • rt + 

X6X 

+y • Z p(x|xt,at) • max(Q*(x, a)) 
-- aeA ' 



xeX 



(9) 
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5 

Aufgrund jeweils des Tupels (xt , xt +i, at/ rt) werden die Q- 
Werte Q*(x,a) in der k+l ten Iteration gemaJi folgender Lern- 
regel mit einer vorgegebenen Lernrate gemali folgender Vor- 
schrif t adaptiert : 

QkH-l(^t/ ^t) = (l - 'nk)Qk(^t' at) + Tik rt -f Y inax(Qk(xt + i, a)) . (10) 



Ublicherweise werden die sogenannten Q-Werte Q*(x,a) durch 
10 jeweils einen Funktionsapproximator , beispielsweise ein neu- 
ronales Netz oder auch einen Polynomklassif ikator , mit einem 
Gewichtsvektor w , der Gewichte des Funktionsapproximators 
enthalt, fur verschiedene Aktionen a approximiert . 

15 Unter einem Funktionsapproximator ist beispielsweise ein neu- 
ronales Netz, ein Polynomklassif ikator oder auch eine Kombi- 
nation eines neuronalen Netzes mit einem Polynomklassif ikator 
zu verstehen. 

20 Es gilt also: 

Q^a) « q(x; w^). 

Anderungen der Gewichte in dem Gewichtsvektor w^ basieren auf 
25 einer temporaren Differenz dt, die gemafl folgender Vorschrift 
gebildet wird: 

dt: = r(xt. at, xt + i) + y max Q(xt+i; wj) - Q^xt; wj^) (12) 

a € A 

30 Es ergibt sich fiir das Q-Lernverf ahren unter Verwendung eines 
neuronalen Netzes folgende Adaptionsvorschrif t fur die Ge- 
wichte des neuronalen Netzes, welche Gewichte in dem Ge- 
wichtsvektor w enthalten sind: 



wo 00/17811 



PCT/DE99/02846 



6 

Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte 
Inf ormationen uber vorangegangene Kursverlaufe eines Finanz- 
5 marktes beschreiben, wird das neuronale Netz, welches das Sy- 
stem Finanzmarkt, wie in [1] beschrieben, darstellt, trai- 
niert . 



Ein weiteres Verfahren der approximativen dynamischen Pro- 
10 grammierung, das sogenannte TD (A.) -Lernverf ahren, ist aus [2] 
bekannt und wird im Zusammenhang mit einem Ausf uhrungsbei- 
spiel naher erlautert. 



Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- 
15 gie n und einem Ausgangszustand xt verbunden ist. Ein Verfah- 
ren zur Risikovermeidung ist ebenfalls aus [3] bekannt, 

Bei dem aus [3] bekannten Verfahren wird folgende Optimie- 
rungsfunktion, welche auch als erweiterte Q-Funktion 
20 Q^(xtr a-t) bezeichnet wird, verwendet: 



25 



maximxere 
r 



Q^(^t' ^t)" = r(xt, at. xt + i) + inf 

xp,xi,K 

p(xo/ xi,k)>0 



oo 



E vM^k. 7t(xk), Xk + i) 
k = l 

(14) 



Die erweiterte Q-Funktion Q^(xt, at) beschreibt den schlechte- 
sten Fall, falls in dem Zustand xt die Aktion at ausgefuhrt 
wird und die Strategie 7t daraufhin verfolgt wird. 



30 



Die Optimierungsf unktion Q^(xt, at) fiir 
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7 

Q*(xt, at): = max Q^(xt, at) 

7t en 

(15)- 

ist gegeben, durch folgende Vorschrift: 

Q*(xt, at) = min U(xt/ ^t' + 7 • "lax Q*(x, a) . (16) 

p(xt + lht^^t)>0 

Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu 
sehen, dafi nur der schlechteste Fall im Rahmen der Strategie- 
10 findung berucksichtigt wird. Dies spiegelt jedoch die Anfor- 
derungen verschiedenster technischer Systeme nur in unzurei- 
chendem Ausmafi wieder. 

Aus [4] ist es ferner bekannt, eine Zugangskontrolle fur ein 
15 Kommunikationsnetz sowie das Routing innerhalb des Kommunika- 
tionsnetzes als ein Problem der dynamischen Programmierung zu 
f orinulieren. 

Somit liegt der Erfindung das Problem zugrunde, ein Verfahren 
20 sowie eine Anordnung zur Ermittlung einer Folge von Aktionen 
fur ein System anzugeben, bei dem bzw. bei der eine erhohte 
Flexibilitat bei der Ermittlung der Strategie erreicht wird. 

Das Problem wird durch das Verfahren sowie durch die Anord- 
2 5 nung gemafi den Merkmalen der unabhangigen Patentanspruche ge- 
lost . 

Bei einem Verfahren zur rechnergestutzten Ermittlung einer 
Folge von Aktionen fur ein System, welches Zustande aufweist, 
30 wobei ein Zustandsubergang zwischen zwei Zustanden aufgrund 
einer Aktion erfolgt, erfolgt die Ermittlung der Folge von 
Aktionen derart, dafi eine aus der Folge von Aktionen resul- 
tierende Folge von Zustanden hinsichtlich einer vorgegebenen 
Optimierungsfunktion optimiert ist, wobei die Optimierungs- 
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funktion einen variablen Parameter enthalt, mit dem ein Risi- 
ko, welches die resultierende Folge von Zustanden hinsicht- 
lich eines vorgegebenen Zustandes des Systems aufweist, ein- 
stellbar ist. 

5 

Eine Anordnung zur Ermittlung einer Folge von Aktionen fiir 
ein System, welches Zustande aufweist, wobei ein Zu- 
standsiibergang zwischen zwei Zustanden aufgrund einer Aktion 
erfolgt, weist einen Prozessor auf, der derart eingerichtet 

10 ist, dali die Ermittlung der Folge von Aktionen derart erfol- 
gen kann, dafi eine aus der Folge von Aktionen resultierende 
Folge von Zustanden hinsichtlich einer vorgegebenen Optimie- 
rungsfunktion optimiert ist, wobei die Optimierungsf unktion 
einen variablen Parameter enthalt, mit dem ein Risiko, wel- 

15 ches die resultierende Folge von Zustanden hinsichtlich eines 
vorgegebenen Zustandes des Systems auf weist, einstellbar ist. 

Durch die Erfindung wird es erstmals moglich, in frei vorgeb- 
barer Genauigkeit im Rahmen einer Strategief indung fiir eine 
20 moglichen Regelung oder Steuerung, allgemein einer Beeinflus- 
sung des Systems, ein Verfahren zur Ermittlung einer Folge 
von Aktionen anzugeben. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
25 abhangigen Anspriichen. 

Die im weiteren beschriebenen Weiterbildungen gelten sowohl 
fur das Verfahren als auch die Anordnung, wobei bei der Wei- 
terbildung der Anordnung jeweils der Prozessor derart einge- 
30 richtet ist, daii die Weiterbildung realisierbar ist. 

In einer bevorzugten Ausgestaltung wird zur Ermittlung ein 
Verfahren des approximativen dynamischen Programmierens ein- 
gesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- 
35 fahren oder auch ein auf dem TD (X.) -Lernen basierendes Verfah- 
ren . 
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Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsf unk- 
tion OFQ gemali folgender Vorschrift gebildet: 



OFQ = q(x; w^) , 



5 

wobei mit 

• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

10 • w die zur Aktion a gehorigen Gewichte eines Funktions- 
approximators 



bezeichnet wird/werden . 

15 Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- 
wichte w des Funktionsapproximators folgender Adaptions- 
schritt ausgef uhrt : 

^t + 1 = ^t^ + nt • ^"^M • VQ(xt; w^t] 

20 

mit der Abkurzung 

dt = r(xt, at, xt + i) + Y max Q(xt + i, w^l - Q(xt, w^^ J 

aeA ^ ^ ^ 

25 wobei mit 



• ^tf xt+i jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• y ein vorgebbarer Verringerungsf aktor , 

at , 

• wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ions schritt, 

at 

• ^t-hl Aktion at gehorige Gewichtsvektor nach dem 
Adapt ions schritt , 

•Tit (t = 1, -..) eine vorgebbare Schrittweitenf olge. 
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•KG [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollf unktion K^(^) = (l - Ksign(^))^, 

• Vq(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

5 • r(xt/ at, xt + i) ein Gewinn beim Zustandsiibergang von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden. 

10 Im Rahmen des TD (X) -Lernverf ahrens wird die Optimierungsf unk- 
tion bevorzugt gemali folgender Vorschrift gebildet: 

OFTD = j(x; w) 



15 wobei mit 



• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 

20 

bezeichnet wird/werden. 

Im Rahmen des TD (X) -Lernens wird zur Ermittlung der optimalen 
Gewichte w des Funktionsapproximators folgender Adaptions- 
25 schritt ausgefiihrt: 

wt + 1 = wt + Tit • ' zt 

mit den Abkiirzungen 

30 

dt = r(wt, at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 
zt = X • y ■ zt_i + Vj(xt; wt). 



35 z_i = 0, 
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wobei mit 

• xtf xt+i jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 
5 • Y ein vorgebbarer Verringerungsf aktor , 

• wt der Gewichtsvektor vor dem Adaptionsschritt , 

• wt+i der Gewichtsvektor nach dem Adaptionsschritt, 

• Tit (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

• K € [-1; 1] ein Risikokontrollparameter , 

10 • eine Risikokontrollf unktion X^(^) = (l - Ksign(^))^ , 

• Vj(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt , at f xt +i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

15 

bezeichnet wird/werden . 

Das System ist bevorzugt ein technisches System, von dem vor 
der Ermittlung MefigroBen gemessen werden, die bei der Ermitt- 
20 lung der Folge von Aktionen verwendet werden, 

Unter Verwendung der ermittelten Folge von Aktionen kann das 
technische System gesteuert oder auch geregelt werden. 

25 Bevorzugt wird das System als ein Markov-Entscheidungsproblem 
modelliert . 

Das Verfahren oder die Anordnung werden bevorzugt in einem 
Verkehrsleitsystem oder in einem Kommunikationssystem einge- 
30 setzt, wobei in dem Kommunikationssystem die Folge von Aktio- 
nen zur Durchfiihrung einer Zugangskontrolle oder eines Rou- 
tings, also einer Pfadvergabe, in einem Kommunikationsnetz 
eingesetzt wird. 

35 Ferner kann das System ein Finanzmarkt sein, welcher durch 

ein Markov-Entscheidungsproblem modelliert wird und wobei der 
Verlauf des Finanzmarkts, beispielsweise ein Verlauf eines 
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Aktienindex oder auch ein Kursverlauf eines Devisenmarktes 
unter Verwendung der Verfahren bzw. der Anordnung analysiert 
und in den Markt entsprechend der Folge ermittelter Aktionen 
eingegriffen werden kann, 

Ausf uhrungsbeispiele der Erfindung sind in den Figuren darge- 
stellt und werden im weiteren naher erlautert. 



Es zeigen 

10 

Figur 1 ein Ablauf diagramm, in dem einzelne Verf ahrensschrit- 
te des ersten Ausf iihrungsbeispiels dargestellt sind; 

Figur 2 eine Skizze eines Systems, welches als Markov- 
15 Entscheidungsproblem modelliert werden kann; 

Figur 3 eine Skizze eines Kommunikationsnetzes, bei dem in 
einer Vermittlungseinheit eine Zugangskontrolle 
durchgef lihrt wird; 

20 

Figur 4 eine symbolische Skizze eines Funktionsapproximators, 
mit dem ein Verfahren des approximativen dynamischen 
Programmierens realisiert wird; 

25 Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- 

matoren, mit dem ein approximatives dynamisches Pro- 
grammieren implementiert wird; 



30 



Figur 6 eine Skizze eines Verkehrsleitsystems, welches gemaB 
einem Ausf uhrungsbeispiel geregelt wird. 
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Erst:es Ausf iihrungsbeisplel : Zugangskontrolle und Routing. 

Fig ■ 3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl 
von Vermittlungseinheiten 301a, 301b, 301i, ... 301n 

5 aufweist, die uber Verbindungen 302a, 302b, 302j, ... 302m 
miteinander verbunden sind. 

Ferner ist ein erstes Endgerat 303 mit einer ersten Vermitt- 
lungseinheit 301a verbunden. Von dem ersten Endgerat 303 wird 
10 eine Anf orderungsnachricht 304 an die erste Vermittlungsein- 
heit 301a gesendet, mit der eine Reservierung einer vorgege- 
benen Bandbreite innerhalb des Kommunikationsnetzes 300 zur 
Ubertragung von Daten (Videodaten, textuelle Daten) angefor- 
dert wird, 

15 

In der ersten Vermittlungseinheit 301a wird gemali einer im 
weiteren beschriebenen Strategie ermittelt, ob die angefor- 
derte Bandbreite in dem Kommunikationsnetz 300 auf einer an- 
gegebenen, angef orderten Verbindung verfugbar ist 
20 (Schritt 305) . 

Ist dies nicht der Fall, so wird die Anforderung zuriickgewie- 
sen (Schritt 306) . 

25 Ist ausreichend Bandbreite verfugbar, so wird in einem weite- 
ren Uberprufungsschritt (Schritt 307) uberpriift, ob die Band- 
breite reserviert werden kann. 

Ist dies nicht der Fall, so wird die Anforderung zuruckgewie- 
30 sen (Schritt 308) . 

Sonst wird von der ersten Vermittlungseinheit 301a eine Route 
von der ersten Vermittlungseinheit 301a iiber weitere Vermitt- 
lungseinheiten 301i zu einem zweiten Endgerat 309, mit dem 
35 das erste Endgerat 303 kommunizieren will, ausgewahlt und es 
wird eine Verbindung initialisiert (Schritt 310) . 
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Im folgenden wird von einem Kommunikationsnetz 300 ausgegan- 
gen, welches einen Satz von Vermittlungseinheiten 

N= {l,K ,n,K ,n} (17) 
5 und einen Satz von physikalischen Verbindungen 



L= {l,K , 1, K , l} , 



(18) 



umfalit, wobei eine physikalische Verbindung 1 eine Kapazitat 
10 von B(l) Bandbreiteneinheiten aufweist. 

Es sind ein Satz 

M= {l, K , m, K , m} (19) 

15 

verschiedener Diensttypen m verftigbar, wobei ein Diensttyp m 
durch 

• einen Bandbreitenbedarf b (m) , 

• eine durchschnittliche Verbindungsdauer ^ , und 

v(m) 

20 • einen Gewinn c (m) , den man dann erhalt, wenn eine Verbin- 

dungsanforderung des entsprechenden Diensttyps m akzeptiert 
wird, 

charakterisiert ist . 

25 Der Gewinn c (m) ist gegeben durch die Menge des Geldes, die 
ein Netzwerkbetreiber des Kommunikationsnetzes 300 einem 
Teilnehmer fur eine Verbindung des Diensttyps in Rechnung 
stellt, Anschaulich spiegelt der Gewinn c (m) unterschiedli- 
che, von dem Netzbetreiber vorgebbare Prioritaten wider, die 

30 er mit verschiedenen Diensten assoziiert. 

Eine physikalischen Verbindung 1 kann gleichzeitig eine be- 
liebige Kombination von Kommunikationsverbindungen bereit- 
stellen, solange die genutzte Bandbreite der Kommunikations- 
35 verbindungen nicht die insgesamt verfiigbare Bandbreite der 
physikalischen Verbindung ubersteigt. 
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Wird eine neue Koiranunikationsverbindung des Typs m angefor- 
dert zwischen einem ersten Knoten i und einem zweiten Knoten 
j (Endgerate warden auch als Knoten bezeichnet), so kann die 
angeforderte Kommunikationsverbindung, wie oben dargestellt, 
entweder akzeptiert oder zuruckgewiesen werden. 

Wird die Kommunikationsverbindungen akzeptiert, so wird eine 
Route aus einer Menge vorgegebener Routen ausgewahlt. Diese 
Auswahl wird als Routing bezeichnet, Im Rahinen der Kommunika- 
tionsverbindung vom Typ m werden b(m) Bandbreiteneinheiten 
fiir jede physikalische Verbindung entlang der ausgewahlten 
Route fur die Verbindungsdauer benutzt. 

Somit kann im Rahinen der Zugangskontrolle (Call-Admission- 
Control) eine Route innerhalb des Koramunikationsnetzes 300 
nur ausgewahlt werden, wenn die ausgewahlte Route ausreichend 
Bandbreite zur Verfiigung hat. 

Ziel der Zugangskontrolle und des Routings ist es, einen 
langfristigen Gewinn, der durch Akzeptanz der angef orderten 
Verbindungen erhalten wird, zu maximieren. 

Das technische System Kommunikationsnet z 300 befindet sich zu 
einem Zeitpunkt t in einem Zustand xt, welcher durch eine Li- 
ste von Routen uber bestehende Verbindungen beschrieben wird, 
durch welche Listen angezeigt ist, wie viele Verbindungen 
welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route 
verwenden. 

Ereignisse w, durch die ein Zustand xt in einen Folgezustand 
xt+i iiberfuhrt werden konnte, sind das Ankommen neuer Verbin- 
dungsanforderungsnachrichten oder auch das Beenden einer in 
dem Kommunikationsnet z 300 bestehenden Verbindung. 

Eine Aktion at zu einem Zeitpunkt t aufgrund einer Verbin- 
dungsanf orderung ist in diesem Ausf tihrungsbeispiel die Ent- 
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scheidung, ob eine Verbindungsanf orderung akzeptiert oder zu- 
ruckgewiesen werden soil und, falls die Verbindung akzeptiert 
wird, die Auswahl der Route durch das Koiranunikationsnetz 300. 

Ziel ist die Ermittlung einer Folge von Aktionen, d.h. an- 
schaulich das Lernen einer Strategic mit Aktionen zu einem 
Zustand xt zu bestimmen derart, dali folgende Vorschrift maxi- 
miert wird: 



oo 



^k = 0 



g\xtk/ »k' ^t,^ 



(20) 



wobei mit 



• E{.} ein Erwartungswert , 

• tk ein Zeitpunkt, zu dem ein k-tes Ereignis erfolgt, 

• ^(^tk'' ®k' atk) cler Gewinn, der mit dem k-ten Ereignis ver- 
bunden ist, und 

• P ein Verringerungsfaktor, der einen sofortigen Gewinn 
wertvoller bewertet als ein Gewinn in ferner in der Zukunft 
liegenden Zeitpunkten, 



bezeichnet wird. 



Unterschiedliche Realisierungen einer Strategic fiihren ubli- 
cherweise zu unterschiedlichen Gesamtgewinnen G: 

00 

G= Ee"^^!^ • g(xtj^,G)k.atj^). (2i) 
k = 0 



Ziel ist die Maximierung des Erwartungswerts des Gesamtge- 
winns G gemaB folgender Vorschrift J: 
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(22) 



k = 0 
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30 



wobei ein Risiko, dafi der Gesamtgewinn G einer speziellen 
Realisierung einer Zugangskontrolle und einer Routing- 
Strategie unter den Erwartungswert sinkt, einstellbar ist. 

Zur Durchfuhrung der Zugrif f skontrolle sowie zum Routing wird 
das TD (A,) -Lernverf ahren eingesetzt. 

Es wird folgende Zielfunktion im Rahmen dieses Ausfuhrungs- 
beispiels eingesetzt : 



wobei mit 

• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, 
die in einem Zustand jeweils zur Verfligung stehen, 

• T ein erster Zeitpunkt, zudem ein erstes Ereignis co er- 
folgt, 

• x^+i ein Folgezustand des Systems, 
bezeichnet wird. 

Ein approximierter Wert des Zielwerts J*(xt) wird unter Ver- 
wendung eines Funktionsapproximators 400 (vgl. Fig . 4 ) unter 
Verwendung von Trainingsdaten gelernt und gespeichert. 

Trainingsdaten sind zuvor in dem Kommunikationsnet z 300 ge- 
messene Daten iiber das Verhalten des Kommunikationsnetzes 300 
bei ankommenden Verbindungsanf orderungen 304 sowie bei Been- 
digung von Nachrichten. Diese zeitliche Folge von Zustanden 
wird gespeichert und mit diesen Trainingsdaten wird der Funk- 
tionsapproximator 400 gemafS dem im weiteren beschriebenen 
Lernverf ahren trainiert. 
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Als Eingangsgrolie des Funktionsapproximators 4 00 dienen fiir 
jeden Eingang 401, 402, 403 des Funktionsapproximators 400 
jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps 
m auf einer Route des Kommunikationsnetzes 300. Diese sind in 
durch Blocke 404, 405, 406 symbolisch dargestellt. 

Ausgangsgrofie des Funktionsapproximators 4 00 ist ein approxi- 
mierter Zielwert J des Zielwerts J . 



Eine detailliertere Darstellung des Funktionsapproximators 
500, welcher in diesem Fall mehrere Teil- 

Funktionsapproximatoren 510, 520 des Funktionsapproximators 
500 aufweist, zeigt Fig . 5 , Eine Ausgangsgrolie ist der 
15 approximierte Zielwert J, der gemaft folgender Vorschrift ge- 
bildet wird: 

1=1 

20 Die Eingangsgrofien der Teilf unktionsapproximatoren 510, 520, 
die an Eingangen 511, 512, 513 des ersten Teil- 
Funktionsapproximators 510 bzw. an Eingangen 521, 522 und 523 
des zweiten Teilf unktionsapproximators 520 anliegen, sind 
wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- 

25 weils in einer physikalischen Verbindung r, symbolisiert 
durch Blocke 514, 515, 516 fiir den ersten Teil- 
Funktionsapproximator und 524, 525 und 526 fiir den zweiten 
Teil-Funktionsapproximator 520. 

30 Teilausgangsgrofien 530, 531, 532, 533 werden einer Addierein- 
heit 54 0 zugefiihrt und als Ausgangsgrolie der Addiereinheit 
wird die approximierte Zielgrofie J gebildet. 

Angenommen, das Koinmunikationsnetz 300 befindet sich in dem 
35 Zustand xtj^ und eine Anf orderungsnachricht , mit der ein 

Diensttyp m der Klasse m fiir eine Verbindung zwischen zwei 
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Knoten i, j angefordert wird, gelangt zu der ersten Verbin- 
dungseinheit 301a. 

Mit R(i, j) wird eine Liste erlaubter Routen zwischen den 
Knoten i und j bezeichnet und mit 



wird eine Liste aller moglichen Routen als Teilmenge der Rou- 
ten R(i, j) bezeichnet, die hinsichtlich der verfugbaren und 
angef orderten Bandbreite eine mogliche Verbindung realisieren 
konnten . 

Fiir jede mogliche Route r, r e R^i, j, x^j^) wird ein Folgezu- 

stand xtj^ +i(xtj^, cok, rj ermittelt, der daraus resultiert, dafi 

die Verbindungsanf orderung 304 akzeptiert wird und die Ver- 
bindung auf der Route r dem anfordernden ersten Endgerat 303 
zur Verfiigung gestellt wird. 

Dies ist in Fig.l als zweiter Schritt (Schritt 102) darge- 
stellt, wobei in einem ersten Schritt (Schritt 101) jeweils 
der Zustand des Systems sowie das jeweilige Ereignis festge- 
stellt werden. 

Es wird in einem dritten Schritt (Schritt 103) eine auszuwah- 
lende Route r* gemafi folgender Vorschrift ermittelt: 

r = arg ^ max jfxtj^ +l(xtj^ , ©k, rl ©t) . (26) 
reR^i,j,xtj^) 

In einem weiteren Schritt (Schritt 104) wird uberpriift, ob 
folgende Vorschrift erfullt ist: 




(25) 
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1st dies der Fall, so wird die Verbindungsanf orderung 304 zu- 
ruckgewiesen (Schritt 105), sonst wird die Verbindung akzep- 
tiert und entlang der ausgewahlten Route r* zu dem Knoten j 
„durchgeschaltef (Schritt 106) • 

5 

In einem Parametervektor © sind jeweils fur einen Zeitpunkt 
t Gewichte des Funktionsapproximators 400, 500 gespeichert, 
die im Rahmen des TD (X,) -Lernverf ahrens an die Trainingsdaten 
adaptiert werden, so dafi eine optimierte Zugangskontrolle und 
10 ein optimiertes Routing erreicht wird. 

Wahrend der Trainingsphase werden die Gewichtsparameter an 
die dem Funkt ionsapproximator angelegten Trainingsdaten ange- 
palit . 

15 

Es wird ein Risikoparameter k definiert, mit dem ein ge- 
wunschtes Risiko, welches durch eine Folge von Aktionen und 
Zustanden hinsichtlich eines vorgegebenen Zustands des Sy- 
stems aufweist, einstellbar ist, gemali folgenden Vorschrif- 
20 ten: 

-1 < K < 0: risikoreiches Lernen, 

K 0- hinsichtlich des Risikos ein neutrales Lernen, 

25 

0 < K < 1: ein risiko-vermeidendes Lernen, 

K = 1: //Worst-Case"-Lernen, 

30 Fernen wird im Rahmen des Lernverf ahrens ein vorgebbarer Pa- 
rameter 0 < X < 1 und eine Schrittweitenf olge y]^ vorgegeben. 

Die Gewichtswerte des Gewichtsvektors © werden aufgrund je- 
des Ereignisses ©tj^ gemali folgender Adaptionsvorschrif t an 

35 die Trainingsdaten angepaflt: 

®k = ©k-l + Yk^^'^ldkK / (28) 
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wobei 



(29) 



zt = ^e-P(tk-l-tk-2),^_^ ^ Vej(xt,,_,,0k-i), 



(30) 



und 



= (l - Ksign(^))^. (31) 

Es wird angenommen: Z_i = 0. 
15 Die Funktion 

g(^tk/ ^t]^) (32) 

bezeichnet den sofortigen Gewinn gemali folgender Vorschrift: 



c(m) wenn co^j^ist eine Diens tan forderung eines 
Diensttyps m und die Verbindung wird 
akzeptiert 

0 sonst 

(33) 



Es wird also, wie oben beschrieben, eine Folge von Aktionen 
25 ermittelt, hinsichtlich einer Verbindungsanf orderung, so dali 
eine Verbindungsanf orderung aufgrund einer Aktion entweder 
zurtickgewiesen Oder akzeptiert wird. Die Ermittlung erfolgt 
unter Berucksichtigung einer Optimierungsf unktion, in der das 
Risiko mittels eines Risikokontrollparameters k e [-1; 1] 
30 variabel einstellbar ist* 




Die lokalen Zustandsgrofien werden wie oben beschrieben unter 
Verwendung der Leiterschleif en 610, 611 gemessen. 
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Somit stellen diese Grofien (v(t), p(t), q(t)) einen Zustand 
des technischen Systems "Verkehr" zu einem bestinmten Zeit- 
punkt t dar. 

5 In diesem Ausf iihrungsbeispiel ist somit das System ein Ver- 
kehrssystem, welches unter Verwendung des Verkehrsleitsystems 
650 geregelt wird. 

Als Verfahren des approximativen dynamischen Programmierens 
10 wird in diesem zweiten Ausf iihrungsbeispiel ein erweitertes Q- 
Lernver f ahren beschrieben . 

Der Zustand wird beschrieben durch einen Zustandsvektor 
15 x(t)= (v(t> p(t> q(t)) , (34) 

Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, 
die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt 
wird. 



20 



25 



30 



35 



Der Gewinn r(xt, a^, xt + 1) beschreibt die Gute des Verkehrs- 
flusses, der zwischen den Zeitpunkten t und t+1 von den Lei- 
terschleifen 610 und 611 gemessen wurde . Im Rahmen dieses 
zweiten Ausf iihrungsbeispiels bezeichnet r{x^, a^, xt + i) 

• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall 
[t, t + 1], 

Oder 

• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t -f 1] 
die Leiterschleifen 610 und 611 passiert haben, 

Oder 

• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall 
[t, t + 1], ^ 
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• eine gewichtete Sunime aus den obigen Grofien, 

Fur jede mogliche Aktion at, d.h. fur jede von dem Verkehrs- 
leitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird 
ein Wert der Optimierungsf unktion OFQ ermittelt, wobei je- 
weils ein geschatzter Wert der Optimierungsfunktion OFQ als 
neuronales Netz realisiert wird. 

Aus diese Weise ergibt sich eine Menge von Bewertungsgrofien 
fur die unterschiedlichen Aktionen at in dem Systemzustand 
xt- 

In einer Regelungsphase wird aus den moglichen Aktionen at, 
d.h. aus der Menge der von dem Verkehrsleitsystem 650 anzeig- 
baren Geschwindigkeitsbegrenzungen, diejenige Aktion at aus- 
gewahlt, fiir die in dem aktuellen Systemzustand xt die maxi- 
male Bewertungsgrofte OFQ ermittelt worden ist. 

Die aus dem Q-Lernverf ahren bekannte Adaptionsvorschrif t zur 
Berechnung der Optimierungsfunktion OFQ wird gemali diesem 
Ausfiihrungsbeispiel urn eine Risikokontrollf unktion K'^(-) , die 
das Risiko beriicksichtigt , erweitert. 

Wiederum wird der Risikokontrollparameter k gemaJi der Strate- 
gie aus dem ersten Ausfiihrungsbeispiel im Intervall von 
[-1 < K :< 1] vorgegeben und reprasentiert das Risiko, das ein 
Benutzer im Rahmen der Anwendung hinsichtlich der zu bestim- 
menden Kontrollstrategie eingehen will. 

GemaB diesem Ausfiihrungsbeispiel wird folgende Bewertungs- 
f unktion OFQ verwendet: 




(35) 
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wobei mit 

• X = (v; p; q) ein Zustand des Verkehrssystems, 

5 ♦a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A al- 

ler vom Verkehrsleitsystem 650 anzeigbaren Geschwindig- 

keitsbegrenzungen, 
a 

• w die zur Geschwindigkeitsbegrenzung a gehorigen Gewichte 
des neuronalen Netzes, 

10 

bezeichnet wird/werden . 

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- 
a 

wichte w den neuronalen Netzes folgender Adaptionsschritt 
15 ausgefuhrt: 

^t + 1 ^t^ + • ^"^M • VQ(xt; wt^) (36) 
mit der Abkurzung 

20 

dt = r(xt, at, xt + i) + Y max Qlxt + i, w^j - ofxt, wj^ 1 (37) 

aeA ^ ^ ^ ^ 



wobei mit 



• ^t^ ^t+1 jeweils ein Zustand des Verkehrssystems gemali Vor- 
schrift (34) , 

• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 
anzeigbare Geschwindigkeitsbegrenzung, 

• Y ein vorgebbarer Verringerungsf aktor , 

at 

• wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
aptionsschritt, 

at 

• ^t+i der zur Aktxon at gehorige Gewichtsvektor nach dem 
Adaptionsschritt, 

•Tit (t = 1, ^•.) eine vorgebbare Schrittweitenf olge. 
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• K e [-1; 1] ein Risikokontrollparameter, 

• K'^ eine Risikokontrollf unktion K^(^) = (l - Ksign(^))^, 

• Vq(-;-) die Ableitung des neuronalen Netzes nach seinen Ge- 
wichten^ 

5 • r(xt, at, xt + i) ei n Gewinn beim Zustandsiibergang von dem Zu- 
stand xt nach dem Folgezustand xt-i-i, 

bezeichnet wird/werden. 

10 Im Rahmen des Lernens kann aus den moglichen Aktionen at eine 
Aktion at zufallig gewahlt werden. Hierbei ist es nicht er- 
forderlich, die Aktion at, die zu der groliten Bewertungsgroiie 
gefuhrt hat, zu wahlen. 

15 Die Adaption der Gewichte hat derart zu erfolgen, daB nicht 

nur eine im Erwartungswert der Optimierungsf unktion optimier- 
te Regelung des Verkehrs erreicht wird, sondern auch eine Va- 
rianz der Regelungsergebnisse berucksichtigt wird, 

20 Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) 
das tatsachliche System Verkehr in einigen Aspekten nur unzu- 
reichend modelliert und es deshalb zu nicht erwarteten Sto- 
rungen kommen kann. So hangt die Dynamik des Verkehrs und da- 
mit seiner Modellierung von weiteren Faktoren wie beispiels- 

25 weise Wetter, Anteil an Lastkraf twagen auf der StralJe, ein 

Anteil von Wohnmobilen, etc. ab, die nicht immer in den Meli- 
grolien des Zustandsvektors x{t) integriert sind. Zudem ist 
nicht immer sichergestellt , dalJ die Verkehrsteilnehmer sofort 
den neuen Geschwindigkeitsangaben gemaiS dem Verkehrsleitsy- 

30 stem Folge leisten. 

Eine Regelungsphase an dem realen System gemafi dem Verkehrs- 
leitsystem vollzieht sich gemafi folgenden Schritten: 

35 l.Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an ver- 
schiedenen Stellen des Verkehrssystems Verkehr und ergibt 
einen Zustandsvektor x(t) = (v(t), p(t), q(t)) . 
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.Fur alle moglichen Aktionen wird ein Wert der Optimie- 
rungsfunktion ermittelt und es wird diejenige Aktion at mit 
der hochsten Bewertung in der Optimierungsf unktion ausge- 
wahlt . 
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Paten tanspriiche 

1. Verfahren zur rechnergestutzten Ermittlung einer Folge von 
Aktionen fur ein System, welches Zustande aufweist, wobei ein 
5 Zustandsubergang zwischen zwei Zustanden aufgrund einer Akti- 
on erfolgt, 

bei dem die Ermittlung der Folge von Aktionen derart erfolgt, 
dafi eine aus der Folge von Aktionen resultierende Folge von 
Zustanden hinsichtlich einer vorgegebenen Optimierungsf unkti- 
10 on optimiert ist, wobei die Optimierungsf unktion einen varia- 
blen Parameter enthalt, mit dem ein Risiko, welches die re- 
sultierende Folge von Zustanden hinsichtlich eines vorgegebe- 
nen Zustandes des Systems aufweist, einstellbar ist. 

15 2. Verfahren nach Anspruch 1, 

bei dem zur Ermittlung ein Verfahren des approximativen Dyna- 
mischen Programmierens eingesetzt wird. 

3. Verfahren nach Anspruch 2, 

20 bei dem das Verfahren des approximativen Dynamischen Program- 
mierens ein auf dem Q-Lernen basierendes Verfahren ist. 

4. Verfahren nach Anspruch 3, 

bei dem die Optimierungsf unktion OFQ im Rahmen des Q-Lernens 
25 gemafi folgender Vorschrift gebildet wird: 

OFQ = q(x; w^) , 
wobei mit 

30 

• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

a , . 

• w die zur Aktion a gehorigen Gewichte eines Funktions- 
approximators 

35 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
onsapproximators gemafi folgender Vorschrift adaptiert werden: 
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w 



t+1 " ^.t + 



xt; w 




mit der Abkurzung 



dt = 



^(^t' ^t' xt + i) + y max q| 

a gA 




xt/ w 




wobei mit 

• Xt, xt+i jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• Y eiri vorgebbarer Verringerungsf aktor , 

at 

• wt der 2ur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ions schr it t , 

at 

• ^t + 1 Aktion at gehorige Gewichtsvektor nach dem 
Adapt ions schr itt, 

• 'Ht (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

• K e [-1; 1] ein Risikokontrollparameter , 

• eine Risikokontrollf unktion K^(£,) = (l " Ksign(^))^, 

• Vq(7-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt, at, Xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand Xt nach dem Folgezustand Xt+i, 

bezeichnet wird/werden, 

5. Verfahren nach Anspruch 2, 

bei dem das Verfahren des approximativen Dynamischen Program- 
mierens ein auf dem TD(X)-Lernen basierendes Verfahren ist. 

6. Verfahren nach Anspruch 5, 

bei dem die Optimierungsf unktion OFTD im Rahmen des TD(X)- 
Lernens gemaJi folgender Vorschrift gebildet wird: 
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OFTD = j(x; w) 
wobei mit 

5 • X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
10 onsapproximators gemali folgender Vorschrift adaptiert werden: 

wt + 1 = wt + Tit • ^^(dt) ' zt 
mit den Abkiirzungen 

15 

= r(wtr at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 
zt ^ X ' y ' 2t_i + Vj(xt; wt), 
20 z_i = 0, 

wobei mit 

• xt/ xt+i jeweils ein Zustand in dem Zustandsraum X, 
25 • at eine Aktion aus einem Aktionsraum A, 

• Y ein vorgebbarer Verringerungsf aktor, 

• wt der Gewichtsvektor vor dem Adaptionsschritt , 

• wt+i der Gewichtsvektor nach dem Adaptionsschritt, 

• Tit (t = 1, ...) eine vorgebbare Schrittweitenf olge, 
30 • K € [-1; 1] ein Risikokontrollparameter , 

• eine Risikokontrollf unktion K^(^) = (l - Ksign(^))^ , 

• VJ(.;.) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• r(xt, at, xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
35 stand xt nach dem Folgezustand xt+i. 
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bezeichnet wird/werden • 

7. Verfahren nach einem der Anspriiche 1 bis 6, 

bei dem das System ein technisches System ist, von dem vor 
5 der Ermittlung Mefigrolien gemessen werden, die bei der Ermitt- 
lung der Folge von Aktionen verwendet werden. 

8, Verfahren nach Anspruch 1, 

bei dem gemali der Folge von Aktionen das technische System 
10 gesteuert wird. 

9, Verfahren nach Anspruch 1, 

bei dem gemafi der Folge von Aktionen das technische System 
geregelt wird. 

15 

10. Verfahren nach einem der Anspriiche 1 bis 9, 

bei dem das System als ein Markov-Entscheidungsproblem model- 
liert wird. 

20 11. Verfahren nach einem der Anspriiche 1 bis 10, 
eingesetzt in einem Verkehrsleitsystem. 

12. Verfahren nach einem der Anspriiche 1 bis 10, 
eingesetzt in einem Kommunikationssystem. 

25 

13. Verfahren nach einem der Anspriiche 1 bis 10, 
eingesetzt zur Durchfuhrung einer Zugangskontrolle in einem 
Kommunikationsnetz . 

30 14. Verfahren nach einem der Anspruche 1 bis 10, 

eingesetzt zur Durchf iihrung eines Routings in einem Kommuni- 
kationsnetz . 



35 



15. Anordnung zur Ermittlung einer Folge von Aktionen fur ein 
System, welches Zustande aufweist, wobei ein Zustandsubergang 
zwischen zwei Zustanden aufgrund einer Aktion erfolgt. 
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mit einem Prozessor, der derart eingerichtet ist, dafi die Er- 
mittlung der Folge von Aktionen derart erfolgen kann, daft ei- 
ne aus der Folge von Aktionen resultierende Folge von Zustan- 
den hinsichtlich einer vorgegebenen Optimierungsf unktion op- 
5 timiert ist, wobei die Optimierungsf unktion einen variablen 
Parameter enthalt, mit dem ein Risiko, welches die resultie- 
rende Folge von Zustanden hinsichtlich eines vorgegebenen Zu- 
standes des Systems aufweist, einstellbar ist. 

10 16. Anordnung nach Anspruch 15, 

eingesetzt zur Steuerung eines technischen Systems. 

17. Anordnung nach Anspruch 15, 

eingesetzt zur Regelung eines technischen Systems. 

15 

18. Anordnung nach Anspruch 15, 
eingesetzt in einem Verkehrsleitsystem. 

19. Anordnung nach Anspruch 15, 

20 eingesetzt in einem Kommunikationssystem. 

20. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung einer Zugangskontrolle in einem 
Kommunikationsnetz . 

25 

21. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung eines Routings in einem Kommuni- 
kationsnetz. 
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